Alors que recherche dense a révolutionné la recherche en capturant l'intention sémantique, les environnements de production révèlent une vérité difficile : les embeddings vectoriels masquent souvent des détails critiques comme les identifiants de produits, des acronymes rares ou du jargon technique. Le monde réel n'est pas purement sémantique ; il est un mélange désordonné de sens abstrait et d'identifiants rigides.
La réalité en production
- L'avantage lexical: La recherche lexicale (comme BM25) reste la norme de référence pour les mots exacts et les chevauchements de phrases. Elle ne cherche pas à deviner « ce que vous voulez dire » ; elle trouve « exactement ce que vous avez dit ».
- Le fossé sémantique: La recherche dense est particulièrement forte pour correspondre au sens (par exemple, « problème avec le paiement » correspondant à « échec de transaction »), mais elle a intrinsèquement du mal à gérer les signaux à haute précision signaux creux comme les numéros SKU ou les codes de pièces.
- La nécessité du hybridation: La recherche hybride existe parce que le monde n'est ni purement sémantique ni purement lexicale. Le comportement des utilisateurs est bifurqué — parfois ils cherchent un concept, parfois un mot-clé spécifique « comme une aiguille dans une meule de foin ».
Aperçu technique
La recherche dense est forte pour correspondre au sens, tandis que la recherche lexicale excelle pour les mots exacts, les identifiants et les chevauchements de phrases. Les questions réelles des utilisateurs ont souvent besoin des deux. La recherche hybride existe parce que le monde n'est ni purement sémantique ni purement lexicale.